Take a Step Back論文
https://scrapbox.io/files/657ba5be71d4150025f7170a.png
論文情報
タイトル:Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models
著者:Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, Denny Zhou
所属:Google DeepMind
発行日: 2023年10月
論文のポイント
私たちは重要な意思決定や難しい問題に当たる時に、しばしば一歩下がって俯瞰して物事を考える。
この抽象化は、高次元の概念や原則を導き出し、広範な視野を提供してくれるため、有用である。
Step Back Promptは2段階に分けて作成している
https://scrapbox.io/files/65a73cfdb135cd0025c5e31b.png
1. 原則をFew-shotで複数生成する
2. それらの原則をコピーし、プロンプトに埋め込む
Step Back Promptの結果は、全体的にPaLM-2Lのパフォーマンスを向上させた
https://scrapbox.io/files/65c9c34ddc3d23002599bb40.png
https://scrapbox.io/files/65a741c0f1c58400223f5dac.png
複雑な問題(STEM: 化学、物理)は、推論が難しいため、なかなか他のプロンプトテクニックでは精度が上がらない
https://scrapbox.io/files/65a749d999fcae002450aae3.png
https://scrapbox.io/files/65a751b792ba650023b6bd62.png
論文を読んで思ったこと
STEM、KnowledgeQA、マルチホップ推論という広範なタスクで効果あったため、custom instructions に設定できそう 一直線の猪がたのCoTのミスを防ぐのに、抽象化に基づいて考えることは、とても有効
この2つのプロンプトの組み合わせは、未検証。
Resultのエラー分析を見ても、Take a Step Backでタスクの複雑さを大幅にへらしても、依然として推論が失敗する最も多い原因の一つだから、LLMにとって推論はとても難しい。 実際にStep Back Promptを使うには、どうする?
論文では2段階にセットしているが、少しめんどくさい。
Custom Instructionsにセットするときはどうすればいいだろうか?
Langchainのソースコードを見ると、system promptとしてこのプロンプトをセットしている
あなたは世界の知識のエキスパートです。あなたの仕事は、一歩下がって、より答えやすい、より一般的な一歩下がったステップバック質問に質問を言い換えることです。(You are an expert at world knowledge. Your task is to step back and paraphrase a question to a more generic step-back question, which is easier to answer)
論文では、Table 6で以下のように設定している
あなたは、物理/化学の専門家です。物理/化学の問題が与えられます。あなたの課題は、その問題を解くために必要な物理学/化学の概念と原理を抽出することです。
そして出てきた概念や原理を、Table7のように、Principlesとしてセットしている
あなたは物理学/化学の専門家です。あなたには物理/化学の問題と、その問題を解くための一連の原理が与えられています。その原理に従って、ステップバイステップで問題を解いてください。以下はその例である:
この2つを一般化して、Custom Instructionsとして以下のようにセットする
code: md
<質問内容>
複雑な問題を考える時は、以下の手順に従ってください。
・問題を直接対処する代わりに、一歩下がってより答えやすい、より一般的なステップバック質問をしてください。
・次にその質問に答えたり、問題を解く為に必要な概念や原理を抽出してください。
・最後に、抽出された回答や概念、原理に従って、正しい答えを得るためにステップバイステップで問題を解いてください。
概要 (Abstract)
この研究では、大規模言語モデル(LLM)が高レベルの概念や原則を導き出し、複雑な推論を行うための新しい手法「STEP-BACK PROMPTING」を提案しています。この手法は、モデルが与えられた情報から抽象化を行い、その抽象化された知識を活用して、より正確な推論を行うことを可能にします。研究チームは、PaLM-2Lというモデルにこの手法を適用し、STEM(科学・技術・工学・数学)、Knowledge QA(知識に基づく質問応答)、マルチホップ推論(複数ステップの推論)などの難易度の高いタスクで性能向上を観測しました。この成果は、LLMの能力を拡張し、より複雑な問題解決に対応可能にする重要なステップを示しています。 ・STEM(科学、技術、工学、数学):
高校の物理と化学に関する問題を中心に、モデルの言語理解能力を評価します。
・Knowledge QA(知識ベースの質問応答):
TimeQAとSituatedQAという2つのデータセットを使用しています。TimeQAは 時間に関連する複雑なクエリを含み、SituatedQAは地理的または時間的な文脈に基づいてモデルが質問に答える必要があります。 ・マルチホップ推論(多段階推論):
MuSiQueとStrategyQAというデータセットを使用しています。MuSiQueは単一の質問の組み合わせから作成された多段階の推論を必要とするデータセットであり、StrategyQAは解決に一定の戦略を必要とするオープンドメインの質問を含んでいます。 1 はじめに
自然言語処理(NLP)の分野は、Transformerベースの大規模言語モデルにより、画期的な革命を遂げています。モデルサイズと事前学習コーパスのスケーリングにより、モデルの能力とサンプル効率の顕著な向上が見られ、スケーリング則や、多段階推論(Wei et al., 2022b; Zhou et al., 2022)や指示に従う能力(Mishra et al., 2022b; Wei et al., 2021)などの新しい能力が明らかになりました。 しかし、最先端のLLMsでさえ、複雑な多段階推論は依然として難題です。Lightman et al. (2023)は、ステップバイステップでの確認を伴うプロセスcheckが、中間推論ステップの正確性を向上させる有望な解決策であることを示しています。CoT (Chain-of-Thought)プロンプトなどの手法は、正しいデコーディングパスをたどる成功率を高めるために、一連の中間推論ステップを明瞭に生成するよう導入されました。課題が難しい場合、人間はしばしば一歩下がって抽象化を行い、プロセスを導くために高次元の概念や原則に到達するという事実に触発され、私たちは中間推論ステップでの誤りの可能性を減らすために、推論を抽象化に基づけるSTEP-BACK PROMPTINGを提案します。 人間の認知スキルの多くの中でも、抽象化(Lachmy et al., 2022)は、膨大な情報を処理し、一般的なルールや原則を導き出す人間の能力にとって普遍的です。例えば、ケプラーは数千もの測定値を、太陽を中心に惑星の軌道を正確に記述するケプラーの三法則にまとめました(Russell, 1964)。重要な意思決定において、人間は環境の広範な視野を提供してくれるため、抽象化を有用と考えます。この研究では、LLMsが多くの低レベルの詳細を含む複雑なタスクに対処する方法として、抽象化と推論の二段階プロセスを探求しています。第一段階は、LLMsに特定の例から概念や第一原理などの高レベルの抽象化を導き出させることです。第二段階は、その推論能力を利用して解決策を高レベルの概念や第一原理に基づけることです。私たちは、LLMsにSTEP-BACK PROMPTINGを実行するためにFew-Shotの実例デモンストレーションを使用します。 物理や化学などのドメイン固有の推論、事実に基づく知識集約的な質問応答、多段階の常識推論を含むさまざまなタスクで実験を行いました。PaLM-2L(Anil et al., 2023)で最大27%の顕著なパフォーマンス向上を観察し、STEP-BACK PROMPTINGが複雑なタスクを処理する際の効果を実証しました。Figure1には、本論文で提示されるすべての主要な結果の要約が示されています。
https://scrapbox.io/files/65a70620f1c58400223b030c.png
様々な分析を行った結果、STEP-BACK PROMPTINGは、CoT (Chain-of-Thought)プロンプトやTake a Deep Breatheプロンプトに比べて最大36%のパフォーマンス向上を示しました。我々は質的評価を行い、Step-Backが基本モデルのエラーの大部分(最大約40%)を修正し、一方で新たなエラーを少量(最大約12%)導入することを発見しました。また、エラー分析を行ったところ、STEP-BACK PROMPTINGによるほとんどのエラーはLLMsの推論能力の固有の限界に起因しており、抽象化スキルは比較的LLMsに教えやすいことが分かりました。これは、STEP-BACK PROMPTINGのような方法の将来的な改善の方向性を示唆しています。 2 ステップ・バック・プロンプティング
ステップ・バック・プロンプティングは、多くのタスクに多くの詳細が含まれており、LLMが関連する事実を取り出してタスクに取り組むのが難しいという観察に基づいています。Figure 2の最初の例(上)に示されているように、「理想気体の温度を2倍に、体積を8倍に増やした場合、圧力Pはどうなるか?」という物理学の問題について、LLMは直接的に問題に対処する際に理想気体の法則の第一原理から逸脱することがあります。
https://scrapbox.io/files/65a73329d9d58200246e973d.png
同様に、「エステラ・レオポルドは1954年8月から11月の間にどの学校に通っていたか?」という問題も、詳細な時間範囲の制約を考慮すると直接的に対処するのが非常に困難です。どちらの場合も、一歩下がってステップ・バックの質問をすることが、問題を効果的に解決するのに役立ちます。
https://scrapbox.io/files/65a732fc45d9c30024b4af58.png
ステップ・バックの質問とは、より高いレベルの抽象化にある元の質問から導き出された質問です。例えば、「特定の期間にエステラ・レオポルドが通っていた学校」と直接尋ねる代わりに、ステップ・バックの質問(Figure 2の下)では「教育歴」という高レベルの概念について尋ねます。これは元の質問を包含する高レベルの概念です。「エステラ・レオポルドの教育歴」についてのステップ・バックの質問に答えることは、特定の期間にエステラ・レオポルドがどの学校に通っていたかについて推論するために必要なすべての情報を提供します。この前提は、ステップ・バックの質問が元の質問よりも対処しやすいことがより多くの場合に当てはまるということです。このような抽象化に基づいて推論することは、Figure2(左)に示されたCoT (Chain-of-Thought)の例のような中間ステップでの推論ミスを避けるのに役立ちます。短く言えば、ステップ・バック・プロンプティングは2つのシンプルなステップで構成されます。 抽象化
問題に直接対処する代わりに、まずLLMに高レベルの概念や原理に関する一般的なステップ・バックの質問を求め、その高レベルの概念や原理に関する関連事実を取り出します。
推論
高レベルの概念や原理に関する事実に基づいて、LLMは元の質問への解答について推論することができます。これを抽象化に基づく推論と呼びます。
以下のセクションでは、STEM、Knowledge QA、マルチホップ推論を含む幅広い難易度の高いタスクに対するステップ・バック・プロンプティングの実証研究を提示します。 3 実験セットアップ
ここでは、実験に使用するタスクとモデルを定義します。また、評価指標と考慮されるベースラインについても説明します。
3.1 タスク
次の多様なタスクで実験を行います:(a) STEM、(b) Knowledge QA、(c) マルチホップ推論。以下に検討するデータセットについて説明します(詳細は付録Bを参照)。
STEM:
MMLUには、モデルの言語理解を評価するための様々な分野にまたがる一連のベンチマークが含まれています。私たちは、深い推論を必要とする高校の物理学と化学の部分を考慮します。 Knowledge QA:
TimeQAを考えました。これは、時間に敏感な知識を要求する複雑なクエリを含むからです。また、モデルが時間的または地理的な文脈を与えられて質問に答えることを要求する、別の難しいオープンリトリーバルQAデータセットであるSituatedQAも実験します。 単一ホップの質問の組み合わせを通じて作成された困難なマルチホップ推論データセットであるMuSiQueと、解決するためのいくつかの戦略を要求するオープンドメインの質問を含むStrategyQAで実験します。 3.2 モデル
最先端のLLMとして、PaLM-2LとGPT-4使用します。インストラクションチューニングされたPaLM-2Lモデルを使用して、さまざまなベースラインを実験します。 3.3 評価
従来の評価指標、例えばAccuracyやF値/F1スコアは、これらのモデルがしばしば長い形式の回答を生成するため、最先端のLLMの生成物を評価する際に特に制限があります。代わりに、PaLM2-Lモデルを使用して評価を行います。ここでは、モデルにFew-Shotのプロンプトを与えて、目標の回答とモデルの予測との間の同等性を特定します。この評価に使用する数ショットの例、プロンプト、およびその他の詳細はTable5にあります。 https://scrapbox.io/files/65a7380a140331002487c49d.png
3.4 ベースライン方法
PaLM-2L、PaLM-2L 1-shot:
PaLM-2Lは、質問で直接問い合わせるか、質問回答のデモンストレーションの例がプロンプトに含まれます。
PaLM-2LモデルはゼロショットのCoTプロンプティング(Kojima et al., 2022)で問い合わせられます。「一歩ずつ考えてみましょう」というフレーズが質問に追加されます。1ショットの場合、質問と回答のペアのデモンストレーションの例がプロンプトに提供され、回答はCoTスタイル(Wei et al., 2022b)の中間推論ステップで行われます。
「深呼吸をして、この問題を一歩ずつ解決しましょう」というフレーズを質問に前置するゼロショットプロンプティング。
セクション5および6では、関連するパッセージが取得され、LLMによってコンテキストとして使用されるリトリーバル拡張生成(RAG)を使用します。
GPT-4:GPT-4 APIに直接問い合わせます。 MMLUでは、このベンチマークの固有の推論性質に反して、他の事実探求型データセットとは異なり、RAGを使用しません。すべての推論は貪欲なデコーディング戦略を使用して行われます。 4 STEM
ステップ・バック・プロンプティングは、専門的な領域での推論における方法の有効性を測定するために、STEMタスクで評価されました。ここでは、MMLU高校の物理学と化学のベンチマークでステップ・バック・プロンプティングを適用した際の実験設定、結果、および分析について説明します。 4.1 ステップ・バック・プロンプティング
MMLUベンチマークの質問は、より深い推論を必要とします。さらに、物理学や化学の原理や概念である公式の理解と適用も必要です。この場合、まず、ニュートンの運動の第一法則、ドップラー効果、ギブズ自由エネルギーなどの概念や第一原理についてモデルに抽象化を教えます。ここでの暗黙のステップ・バックの質問は「このタスクを解決するのに関係する物理学または化学の原理や概念は何ですか?」です。我々は、タスクを解決するために関連する原理をモデルが自身の知識から引用するように教えるデモンストレーションを提供します。(Few-Shotの実例については以下を参照。) https://scrapbox.io/files/65a73cfdb135cd0025c5e31b.png
4.2 結果
表1は、様々な設定におけるモデルのパフォーマンスを示しています。PaLM-2Lのベースラインのパフォーマンスは、それぞれ物理学で66.4%、化学で70.9%です。Zero-Shot CoTとTake a Deep BreatheのZero-Shotプロンプティングは、これらのタスクに関連する固有の難しさと深い推論のため、モデルのパフォーマンスを大幅に向上させることはありません。また、PaLM-2L 1ショットおよびPaLM-2L + CoT 1ショットも、ベースラインに対して大きな改善を示さず、モデルに推論ステップを示すことの課題を浮き彫りにします。対照的に、ステップ・バック・プロンプティングは、PaLM-2Lに比べて+7%および+11%のパフォーマンス向上を実現し、GPT-4を超える最先端のパフォーマンスを達成しています。 https://scrapbox.io/files/65a741c0f1c58400223f5dac.png
まず、Figure 3では、ステップ・バック・プロンプティングが、デモンストレーションとして使用される(質問、原理)ペアのFew-Shotの実例の数に対して頑健であることが観察されます。単一の例を超えてさらにデモンストレーションの例を追加しても、それ以上の助けにはなりません。これは、関連する原理や概念を取り出すタスクが比較的習得しやすく、単一のデモンストレーションで十分であることを示しています。 https://scrapbox.io/files/65a742af45d9c30024b68110.png
エラー分析
https://scrapbox.io/files/65a74532f1c58400223fa96b.png
Figure 4(左)は、MMLU高校物理学におけるステップ・バック・プロンプティングの予測のエラー分析を示しており、ステップ・バック・プロンプティングはベースラインのPaLM-2Lモデルから20.5%のエラーを修正し、11.9%のエラーを新たに導入しています。
ステップ・バック・プロンプティングでのエラーがどこから来るのかをさらに理解するために、テストセットのステップ・バック・プロンプティングによるすべての誤った予測を注釈付けし、5つのクラスに分類しました
原理エラー:抽象化の段階でエラーが発生し、モデルによって生成された第一原理が間違っているか不完全です。
事実エラー:モデルが自身の事実知識を引用する際に、少なくとも1つの事実エラーがあります。
数学エラー:最終回答を導き出す過程での数学計算に関連した中間ステップで、少なくとも1つの数学エラーがあります。
コンテキストの喪失:モデルの応答が質問のコンテキストから離れ、元の質問に対処することから逸脱する際に、少なくとも1つのエラーがあります。
推論エラー:最終回答に至る前の中間推論ステップで、モデルがエラーを犯すことを推論エラーと定義します。
これら5つのエラーのタイプは、原理エラーを除き、推論ステップ中に発生します。原理エラーは抽象化ステップの失敗を指摘しています。Figure 4(右)に示されているように、原理エラーは実際にはモデルが犯すエラーのごく一部を占めており、90%以上のエラーは推論ステップで発生しています。推論中の4つのエラータイプの中で、推論エラーと数学エラーが主な損失要因です。これは、上記のアブレーション研究の結果を裏付けており、LLMに抽象化スキルを教えるためには非常に少数の実例が必要であることを示しています。推論ステップは、複雑な推論を必要とするMMLUのようなタスクでステップ・バック・プロンプティングがどれだけうまく機能するかのボトルネックです。
特にMMLU物理学においては、問題を成功裏に解決するためには、推論と数学のスキルが重要です。第一原理が正しく取得されていても、正しい最終回答を導き出すためには、典型的な多段階推論プロセスを通じて深い推論と数学が関与しています。 5 Knowledge QA
我々は、事実に基づく知識が集中的に必要とされる質問応答ベンチマークでステップ・バック・プロンプティングを評価します。Knowledge QAはLLMにとって挑戦的でした。このセクションでは、まず実験設定を説明し、次にステップ・バック・プロンプティングに関する結果と分析を行います。
5.1 ステップ・バック・プロンプティング
Knowledge QAカテゴリーでは、TimeQAおよびSituatedQAでステップ・バック・プロンプティングを評価します。まず、LLMに抽象化を教えます。Figure 2に示された「エステラ・レオポルドの教育歴は何か」というステップ・バックの質問は、LLMが数ショットのデモンストレーションを通じて生成しました(詳細は付録D.2を参照)。これらのクエリは知識集約的な性質を持っているため、リトリーバル拡張(RAG)をステップ・バック・プロンプティングと組み合わせて使用します。ステップ・バックの質問は、関連する事実を取得するために使用され、これが追加のコンテキストとして機能し、最終的な推論ステップを基礎づけます(プロンプティングのテンプレートについては表12を参照)。 https://scrapbox.io/files/65a747e845d9c30024b6fca3.png
このように、ステップ・バック・プロンプティングは、質問の抽象化によって、関連する高レベルの概念や原理を特定し、それらを基にして最終的な答えを導き出すアプローチです。特に、専門的な知識が要求されるSTEM分野や、大量の事実情報を必要とするKnowledge QAなどのタスクでは、この方法が効果的であることが示されています。LLMが直面する主な課題は、抽象化された概念を理解し、それに基づいて複雑な推論を行う能力にあります。ステップ・バック・プロンプティングを通じて、これらの課題に対処し、LLMのパフォーマンスを向上させることが可能です。 5.2 結果
TimeQAのテストセットでモデルを評価しました。表2に示されているように、GPT-4とPaLM-2Lのベースラインモデルはそれぞれ45.6%と41.5%の成績を達成し、タスクの難しさを浮き彫りにしました。ベースラインモデルにCoT (Chain-of-Thought)やTake a Deep BreatheのZero-Shot(およびワンショット)プロンプティングを適用しても改善は見られませんでした。対照的に、通常のリトリーバル拡張(RAG)でベースラインモデルを補強することで、正確さは57.4%に向上し、タスクの事実集約的な性質を強調しました。ステップ・バック + RAGの結果は、高レベルの概念に戻ることの有効性を示し、はるかに信頼性の高いリトリーバル拡張を可能にしました:TimeQAでの正確さは顕著な68.7%に達しました。 https://scrapbox.io/files/65a749d999fcae002450aae3.png
次に、元のデータセットで提供されているEasyとHardの難易度レベルにTimeQAを分割しました。予想通り、すべての方法はHardセグメントでのパフォーマンスが低下します。RAGはEasyの正確さを42.6%から67.8%に改善できますが、Hardの正確さの改善はわずかです:40.4%から46.8%です。これは、ステップ・バック・プロンプティングが真に優れている部分です。ステップ・バック・プロンプティングは高レベルの概念に関する事実を取得し、最終的な推論に基礎を提供します:ステップ・バック + RAGはHardの正確さをさらに62.3%に向上させ、GPT-4の42.6%を上回ります。私たちは、高レベルの概念(例えば教育歴)に関する事実は低レベルの詳細よりもはるかにアクセスしやすいと仮定しています。
SituatedQAベンチマークでは、54.3%から最良の方法であるステップ・バック + RAG 61%へと、GPT-4の63.2%との小さな差を埋める程度の品質向上が見られました。TimeQAと同様に、CoTやTDBのようなプロンプティング技術はSituatedQAに大きな助けにはなりませんでした。 5.3 アブレーションと分析
Figure 5(左)では、ステップ・バック・プロンプティングのパフォーマンスが、デモンストレーションで使用される実例の数に対して頑健であることが観察されました。これは再び、PaLM-2Lのようなモデルで抽象化スキルを学習するためのサンプル効率の高さを強調しています。
https://scrapbox.io/files/65a75087b3840b00226d0e78.png
エラー分析:
Figure 5(右)は、ステップ・バック・プロンプティングによる予測が犯した残りのすべてのエラーの内訳を示しています。セクション4.3と同様に、エラーを以下のように分類します:
ステップバック:生成されたステップ・バックの質問がタスクを解決するのに役立たない。
RAG:ステップ・バックの質問が的を射ているにもかかわらず、RAGが関連情報の取得に失敗する。
スコアリングエラー:評価を行うジャッジモデルが間違いを犯す。
推論エラー:取得されたコンテキストは関連しているが、モデルはそれを通じて正しい回答に至るための推論を行うことに失敗する。
ステップバックはめったに失敗しません。対照的に、エラーの半分以上が推論エラーによるものであることがわかりました。45%のエラーは、ステップ・バックによる抽象化がタスクをはるかに簡単にするにもかかわらず、適切な情報の取得に失敗するために発生しています。これはTimeQAタスクの難易度レベルを反映しています。TimeQAの追加エラー分析は付録Aにあります。
6 マルチホップ推論
6.1 結果
表3は、MuSiQueおよびStrategyQAの開発セットにおける様々なベースラインのパフォーマンスを示しています。PaLM-2LとGPT-4のベースラインパフォーマンスは、MuSiQueでは低いです(それぞれ35.5%と38.5%)。これは、MuSiQueが困難なマルチホップ推論のベンチマークであるためです。対照的に、StrategyQAではベースラインが強いです(PaLM-2LとGPT-4でそれぞれ82.8%と78.3%)。これは、二項分類タスクであることが理由かもしれません。CoT (Chain-of-Thought)とTake a Deep BreatheはMuSiQueの場合、モデルパフォーマンスを少し改善します(それぞれ約3%と3.5%)。これは、これらの方法が有効であることが示された、このタスクの固有の推論性質に起因する可能性があります。StrategyQAの場合、COTとTDBでは顕著なパフォーマンス向上は見られません。これは、このタスクの高いベースラインパフォーマンスと、これらのプロンプティング手法によるパフォーマンス向上の余地が限られていることが原因かもしれません。しばしば、1ショットのパフォーマンスは、ゼロショットメソッドよりも著しく低いです。これは、潜在的な例のバイアス(Zhao et al., 2021; Parmar et al., 2023)に起因する可能性があります。RAGはモデルのパフォーマンスを改善します(MuSiQueとStrategyQAでそれぞれ約4%と2%)。ステップ・バック・プロンプティングは、抽象化の力を活用して、すべての方法の中で最高のパフォーマンスを達成します:MuSiQueで42.8%、StrategyQAで86.4%で、どちらのタスクでもGPT-4を大幅に上回ります。 https://scrapbox.io/files/65a751b792ba650023b6bd62.png
6.2 分析
前のセクションでの観察と同様に、ステップ・バック・プロンプティングとRAGを組み合わせることで、ベースモデルの15.4%の間違った予測を正しい予測に変えることができ、逆に6.1%のエラーを引き起こします。さらに、ステップ・バック + RAGは、RAGからの12.7%のエラーを修正します。ステップ・バックによるRAGへの導入されたエラーはわずか4.4%です。
https://scrapbox.io/files/65a75209ff229a00239c15ad.png
7 議論
抽象化は、無関係な詳細を取り除き、問題解決プロセスを導くための高レベルの概念や原理を精製することで、人間が複雑なタスクを解決するのに役立ちます。ステップ・バック・プロンプティングは、知識集約的なQA、マルチホップ推論、科学的な質問などの複雑なタスクを、抽象化と推論の2つの別々のステップに分けます。実証的な実験を通じて、PaLM-2LのようなLLMに抽象化を教えることは、サンプル効率の良いデモンストレーションを通じて容易であることを示します。高レベルの概念や原理に基づいて、LLMは固有の推論能力を活用して解決策を導き出すことができます。これにより、中間ステップでの推論の失敗の可能性が減り、幅広い複雑な推論タスクでのパフォーマンスが向上することが示されています。成功にもかかわらず、エラー分析を通じて、推論はLLMが習得するのが最も困難なスキルの1つであり、ステップバック・プロンプティングによるタスクの複雑さの大幅な削減後も、依然として支配的な失敗モードであることがわかります。 ただし、抽象化はすべてのシナリオで必要または可能なわけではありません。例えば、「2000年のアメリカ合衆国大統領は誰だったか?」のような単純なタスクでは、そのような質問の答えはすでに利用可能であるため、高レベルの質問をする必要はありません。また、「光の速度はどれくらいか?」のような質問は、それ自体が第一原理を指しています。この場合、抽象化を行っても違いはありません。
8 関連研究
ステップ・バック・プロンプティングは、プロンプティングと分解の文献に関連しています。
8.1 プロンプティング
Few-Shotプロンプティングは、モデルパラメーターを更新することなく、様々なタスクでのモデルパフォーマンスを大幅に向上させています。私たちの研究であるステップ・バック・プロンプティングは、その単純さと汎用性により、CoT (Chain-of-Thought)プロンプティングやスクラッチパッド(Nye et al., 2021)と同じカテゴリに属していますが、複雑なタスクを遂行する際に人間が広い視野を持つことが有効であるという事実に触発された抽象化という重要なアイデアに焦点を当てています。また、私たちの研究は、リサイテーション拡張言語モデル(Sun et al., 2022)にも関連していますが、彼らの研究とは対照的に、我々は明示的にステップ・バックと抽象化を行い、タスクの性質に応じてオプションでリトリーバル拡張を使用します。 8.2 分解
タスクをより単純なタスクに分解し、これらのタスクを解決することで元のタスクを解決することは、複雑なタスクのモデルパフォーマンスを向上させる効果的な方法でした(Zhou et al., 2022; Patel et al., 2022; Khot et al., 2022; Press et al., 2022)。いくつかのプロンプティング手法がモデルのパフォーマンスを向上させるのに成功しています。私たちのステップ・バック・プロンプティングは、質問をより抽象的で高レベルにすることに焦点を当てており、元の質問の低レベルな分解とは異なります。さらに、例えば「人物Xの雇用歴は何か?」のような抽象的な質問は、一般的な性質があるため、多くの質問(例:「Xは1990年にどの雇用主で働いていたか?」や「Xは2000年にどの雇用主で働いていたか?」)が同じ抽象的な質問に該当する一対多のマッピングを持ちます。これは、分解では、与えられた質問を解決するために複数の分解されたサブ問題が必要とされるため、多対一のマッピングがある点と対照的です。
9 結論
我々は、ステップ・バック・プロンプティングを、大規模言語モデルで深い推論を引き出すためのシンプルで汎用的な方法として紹介します。事実探求、常識推論、およびドメイン固有推論のベンチマークにわたるLLMにおける実験は、ステップ・バック・プロンプティングがモデルパフォーマンスを大幅に改善することを示しています。我々は、抽象化がモデルがハルシネーションを減らし、より良い推論を行うのに役立つと仮定します。これはおそらく、抽象化なしで元の質問に応答する際にしばしば隠されるモデルの真の性質を反映しています。私たちの研究が、大規模言語モデルの隠された可能性を引き出すための、より多くの人間に触発されたアプローチを促進することを願っています。